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基于 并 行 C4.5 的 铁路 零散 白 货 客户 流失 预测 研究 
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摘 要 :为 了 提高 铁路 零散 和 白 货 客户 流失 预测 的 准确 性 和 高 效 性 , 根据 铁路 零散 白 货 客户 的 流失 特征 , 提出 了 基于 CDL 
模型 的 客户 流失 识别 方法 ， 在 此 基础 上 ， 针 对 数据 量 大 的 问题 ， 提 出 了 基于 Hadoop 并 行 框架 的 C4.5 决策 树 客户 流失 
预测 模型 。 通 过 仿真 实验 ,证 明 该 模型 具有 较 好 的 准确 性 和 预测 能 力 ， 并 且 随 着 样本 数量 的 增加 ，Hadoop 并 行 框架 的 
效率 得 到 了 明显 的 提升 ， 且 不 影响 客户 流失 预测 模型 的 准确 性 和 预测 能 
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Research on railway scattered freight customer churn prediction 
based on parallel C4.5 decision tree algorithm 


Zhang Bin, Peng Qiyuan, Liu Fanxiao 
(School of Transportation & Logistics, Southwest Jiaotong University, Chengdu 610031, China) 


Abstract: In order to improve the accuracy and efficiency of customer churn prediction of railway scattered freight, according 
to the loss characteristics of railway scattered freight customers, proposed a customer churn identification method based on CDL 
model. On this basis, facing the problem of big data, proposed a C4.5 decision tree customer churn prediction model based on 
Hadoop parallel framework. Simulation results show that the model has good accuracy and predictive ability, and as the number 
of samples increases, the efficiency of Hadoop parallel framework is obviously improved, and the accuracy and prediction ability 


of churn prediction model are not affected. 
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运 客户 ， 并 对 其 制定 挽留 策略 是 铁路 货运 行业 保证 核心 竞争 力 
一 的 关键 ， 也 是 提升 自身 竞争 力 的 有 效 途 径 。 

随 着 全 球 经 济 的 快速 发 展 ， 以 及 国家 供给 侧 改革 “一 带 一 前 ， 在 客户 流失 预测 方面 的 研究 方法 主要 包括 统计 分 析 
路 ”发 展 战略 的 深化 推进 和 经 济 结构 的 有 序 调整 ， 货 物 运输 市 。 法 和 人 人工 智能 方法 四 ,使 用 最 为 广泛 的 算法 包括 Logistic 回归 
场 需求 发 生 了 重大 变化 ， 逐 渐 从 以 大 宗 货物 运输 为 主 向 零散 白 中、 人 工 神经 网 络 由 、 决 策 树 外 、 支 持 向 量 机 (SVM) no 等 ， 其 
货运 输 的 方向 发 展 ， 运 输 组 织 模式 逐渐 从 以 货车 编组 计划 为 基 。。 中 决策 树 是 通过 对 训练 集 进行 归纳 学 习 ， 从 无 序 、 无 规律 的 
础 向 以 客户 需求 导向 为 中 心 的 模式 发 展 。 然 而 由 于 铁路 货运 在 。 例 中 推理 生成 树 状 数据 结构 或 决策 规则 ， 并 运用 于 新 的 数据 集 
实效 性 和 便捷 性 等 方面 存在 不 足 ， 加 上 公路 、 航 空 等 其 他 运输 。 来 进行 分 类 预测 的 数据 挖掘 方法 。 因 其 较 高 的 准确 率 以 及 良好 
方式 的 不 断 发 展 壮大 ， 铁 路 零散 白 货 运输 市 场面 临 着 激烈 的 竞 。 ”的 容 脏 和 解释 能 力 被 广泛 应 用 于 分 类 、 预 测 、 规 则 提取 等 令 
争 。 铁路 部 门 自 2005 年 以 来 , 零散 白 货运 输 所 占 份额 成 逐年 下 域 。 其 中 C4.502 决 策 树 算法 是 对 ID303I 算 法 的 改进 算法 ， 其 弥 
降 势 态 ， 严 重 影响 了 铁路 货运 市 场 的 地 位 和 收益 帆 ， 据 不 完全 。” 补 了 ID3 算法 中 信息 增益 趋向 与 多 值 属性 的 缺陷 。 然 而 决策 树 
统计 ， 目 前 国内 快递 运输 80% 采 用 公路 运输 ，15% 采 用 航空 运 ”是 通过 选 代 计算 构成 的 ， 当 面临 大 规模 数据 时 ， 其 在 计算 时 间 
输 ， 只 有 5% 采 用 铁路 运输 中。 保证 企业 核心 竞争 力 的 关键 是 抓 。 和 空间 上 存在 局 限 ， 从 而 严重 影响 运行 效率 。Google 公司 提供 
住 客户 四， 而 获取 一 位 新 客户 的 成 本 是 留 住 一 位 老 客 户 的 5~6 。 ”的 Hadoop 分 布 式 开源 计算 框架 能 够 处 理 大 规模 数据 ， 其 提供 
倍 [3。 在 铁路 零散 白 货运 输 市 场 内 忧 外 患 的 情况 下 ,如 何 能 够 。 了 MapReduce 编程 模型 和 Hadoop 分 布 式 文件 系统 HDFS， 并 
最 大 限度 的 对 货运 客户 进行 管理 ， 从 而 有 效 识别 可 能 流失 的 货 “提供 可 容错 的 并 行 运 算 方式 ， 可 以 在 其 架构 上 建立 大 型 集群 来 
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处 理 大 数据 集 。 
SPRINT 分 类 算法 ， 并 证 明 其 具有 较 好 的 分 类 正 
时 间 复 杂 度 和 较 好 的 并 行 性 能 。 文 献 [15] 提 


文献 [14] 设 计 并 实现 了 基于 Hadoop 平 


出 了 一 种 基于 


台 的 并 行 
确 率 、 较 低 的 


Hadoop 的 并 行 共享 决策 树 挖掘 算法 , 证明 其 具有 
和 拓展 性 。 
算法 , 并 证 明 其 具有 处 理 
Hadoop 的 不 确定 概率 误差 前 枝 算法 ， 
结合 MapReduce 程序 设计 , 证 明 其 具有 处 理 大 规 
和 较 好 的 可 扩展 性 。 


本 


良好 的 并 行 性 
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其 中 : Glpi 表示 第 j 个 客户 基于 CDL 模型 的 流失 因子 ;wc 、 
wb、 表示 C、DD、 工 参数 的 权 值 ， V4、V5、Vi 分 别 表 
示 第 j 个 客户 标准 化 后 的 、Vb、Vi 值 。 本 文采 用 


Min-max 


文献 [16] 提 出 基于 Hadoop 平台 的 不 确定 概率 C4.5 
海量 数据 的 能 力 。 文 献 [17] 提 
应 用 于 C4.5 算法 中 ， 


出 了 基于 


模 数 据 的 能 


建立 


本 文通 过 提取 零散 


货 客户 货运 特征 ， 


法 ， 提 出 基于 Hadoop 分 布 式 并 行 架构 的 零散 白 
过 仿真 实验 ， 证 明 并 行 算法 的 高 效 性 


1 零散 白 货 客户 流失 预测 模型 构建 
1.1 零散 白 货 客 户 流失 的 识别 方法 


客户 的 流失 识 


别 方法 , 并 针对 铁路 货运 数据 量 大 的 问题 , 采用 C4.5 决策 树 算 


货 客户 流失 预 
和 预测 模型 的 


相对 大 宗 物 资 ， 零 散 白 货 运 价 更 高 ， 因 此 零 


散 白 货 市 场 是 


铁路 货运 市 场 的 高 端 产 品 ， 加 上 零散 白 货 客户 对 


货运 市 场 服 务 


及 动态 更 加 敏感， 更 加 灵活 ， 因 此 如 何 提取 货运 


客户 流失 特征 


对 零散 白 货 客户 的 流失 状态 进行 判断 是 对 其 进行 
要 问题 本文 结合 零散 白 货 运输 特征 
服务 质量 三 个 方面 对 客户 是 否 具有 流失 倾向 进行 


， 从 运 到 期 限 、 


流失 预测 的 重 
货 损 货 差 、 


标准 化 方法 ,将 各 参数 的 标准 化 值 映 射 到 [0,1] 区 间 , 方法 如 下 : 
ee Vi 一 mini<v<r {v9 
Vi = - 
MaXiscp {Vv mini<,<r {Y 
ie{C,D,L} G3) 
其 中 : Vy/ 为 第 j 个 客户 第 i 项 参数 标准 化 之 后 的 值 。 
基于 以 上 分 析 ， 本 文 对 零散 白 货 客户 流失 的 识别 方法 作出 
以 下 定义 。 
定义 1 本 文 讨论 的 流失 客户 指 代 具有 流失 倾向 的 《即将 


流失 的 ) 零散 白 货 客户 ， 对 长 期 未 办 理 业务 的 客 
流失 ， 不 作为 本 文 的 研究 范畴 。 

定义 2 ”本 文 根 据 CDL 模型 的 流失 因子 Ga 和 标准 化 后 
的 模型 参数 了 Y: 、V5、V/ 来 识别 零散 白 货 流失 客户 , 识别 方法 
如 式 〈4) 所 示 。 


户 认 定 为 已 经 


| 古 


Go >6.5 


如 果 客 户 在 CDL 模型 中 


参数 的 YL 、V5、Vi 值 超过 给 


判断 。 运 到 


Pes 


限 体现 了 运输 时 间 的 兑现 率 , 由 于 
途中 运输 、 途 中 解 编 、 到 达 四 个 作业 环节 ， 各 个 


铁路 货运 过 程 需要 经 过 发 货 、 


定 阔 值 的 ， 识 别 为 流失 客户 ;对 于 未 超过 阔 值 的 客户 ， 如 果 流 
失 因子 Gi 超过 了 给 定 阔 值 ， 则 识别 为 流失 客户 。 对 于 流失 的 


环节 又 有 知 


操作 ， 往 往 会 影响 运 到 期 限 ， 而 运 到 期 限 是 否 被 


满足 ， 对 客户 


是 否 信赖 铁路 运输 有 重要 影响 。 货 损 货 差 率 是 衡 
户 满意 度 的 重要 因素 ， 与 大 宗 货物 运输 不 同 ， 零 
货物 的 完整 性 及 包装 的 完好 性 都 提出 了 较 高 要 求 。 
岗 为 客户 在 铁路 货运 业务 办 理 流程 中 的 感知 和 体 
站 的 投诉 建议 情况 上 得 到 反馈 。 


量 零散 白 货 客 
散 白 货 客户 对 

服务 质量 表 
验 ， 可 以 从 客 


客户 标记 为 1， 未 流失 的 客户 标记 为 0。 
1.2 铁路 零散 白 货 客户 流失 预测 模型 


根据 零散 白 货运 输 特征 ， 本 文 提 出 


单 次 发 货 的 延误 小 时 数 ， 
表示 在 观察 窗 
率 、 平 均 客户 投诉 率 。 


xe{C,D,L} 


其 中 :为 表示 客户 第 i 次 发 货 的 客户 投诉 建议 数 上 
间 D; 、 货 损 货 差 率 工 ， 下 为 观察 信 
货 次 数 )。 

对 于 客户 流失 识别 CDL 模型 ， 采 用 AHP， 
法 对 其 各 项 指标 赋予 权 值 [woc,owo,wr]=[43.3,27] 。 


零散 白 货 客 
模型 CDL,， 其 中 C 为 在 观察 窗口 内 客户 的 投诉 数量 ， 
工 为 客户 单 次 发 货 的 货 损 
内 ， 客 户 发 货 延 误 的 平均 时 间 、 平 


户 流失 识别 


(1) 


量 C;、 延 误 时 


内 容 户 的 发 货 频率 ( 即 发 


从 而 ,得 到 


基于 CDL 模型 的 零散 白 货 流失 因子 计算 方法 ， 如 下 所 示 : 


; 了 了 1 
Gipr =QWe XVec top XVp+o, XVL (2) 


在 零散 白 货 客户 流失 识别 方法 中 ， 本 文 从 运 到 期 限 、 货 损 
货 差 、 服 务 质量 三 个 方面 对 客户 进行 流失 识别 判断 ， 但 无 法 巴 
测 具 有 流失 倾向 的 客户 。 本 章 结 合 货运 客户 的 货运 特征 ， 在 观 
察 窗口 内 ， 从 客户 的 注册 时 长 ( R )、 客 户 发 货 频 率 〔 严 )、 客 
户 近 期 发 货 表 现 ( N )、 客 户 发 货 周 转 量 ( Z ) 四 个 方面 , 结合 

行 C4.5 决策 树 模 型 , 对 零散 白 货 流失 客户 进行 预测 研究 。 其 
由 入 = 看。 ，Tue 为 观察 窗口 末端 时 间 ， Ts 为 
客户 观察 窗口 内 最 后 一 次 发 货 下 单 时 间 ， True 为 观察 窗口 内 


客户 的 平均 发 货 下 单 时 间 间 隔 ; 2Z 为 发 货 量 与 发 货运 距 的 乘积 
1.2.1 C4.5 决策 树 

C4.5 决策 树 的 思路 是 通过 计算 变量 属性 的 最 大 信息 增益 
率 ， 来 确定 决策 树 从 根 节 点 到 叶子 节点 的 树 状 结构 ， 信 息 增 益 


率 最 大 的 变量 作为 根 节点 ， 每 一 个 叶子 节点 都 代表 了 一 类 决策 
结果 。 


确定 决策 树 的 关键 是 计算 各 变量 属性 的 最 大 信息 增益 率 ， 


首先 要 计算 训练 样本 的 信息 焙 ， 其 表达 式 如 式 (5) 所 示 。 


=-y pfilsjlog,p(il3) (5) 


i= 


P(ilS) 表示 5 中 所 属 类 i 的 比例 ， 


Info(S 


其 中 : 5 为 训练 数据 集 ， 
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表示 类 别 数量 。 如 果 将 训练 数据 集 9 按照 属性 4 进行 划分 ， 则 空闲 的 TrackTracker， 再 由 TrackTracker 分 配给 Map 和 Reduce 
在 已 知 属性 4 的 前 提 下 ，5 的 不 确定 度 如 式 〈6) 所 示 。 子 任务 。Map 接收 的 数据 为 <key,value> 结 构 ， 其 执行 对 客户 信 
息 的 数据 清理 操作 ， 包 括 过 滤 重 复数 据 、 剔 除非 法 数据 、 过 波 
无 关 数 据 、 处 理 不 完整 数据 及 异常 数据 等 。 之 后 将 清洗 过 的 数 
其 中 : 属性 4 将 数据 集 8 分 为 7 类 , 5={51,52,…,5i…,5)} , 通 据 交 由 Reduce 子 任务 ，Reduce 将 相同 key 值 (客户 ID) 的 


Cal 


Infos(S -过 | Téa (6) 


过 计算 划分 前 后 的 差 值 ， 可 以 得 到 信息 增益 ， 其 计算 公式 为 value 值 (客户 信息 ) 进行 合并 ,计算 客户 发 货 频率 严 ， 并 对 各 
Gain(A,S)= Info(S)— mfos(S) (7) ”项 数据 进行 Min-max 标准 化 操作 ， 最 后 将 处 理 过 的 数据 返回 

为 了 弥补 信息 增益 趋向 与 多 值 属 性 ，C4.5 使 用 信息 增益 率 ” “HDFS。 
来 克服 这 个 缺陷 ， 如 式 〈8) 所 示 。 go] 客 户 流失 识别 。 对 客户 样本 数据 进行 基于 CDL 模型 的 客 
a Goan i 户 流 失 识 别 。 客 户 样本 数据 从 HDFS 中 提取 出 来 ，Map 子 任务 
Splitinfo( A,S ) 以 < 客户 ID,CDL 模型 参数 > 的 数据 结构 发 送 给 Reduce 子 任务 ， 


其 中 :分割 信息 量 SplitIjo(4,5)= pe 


i=l 


os, [ 5, |. Ee Reduce 对 数据 以 客户 ID 为 key 值 进行 合并 ， 即 以 客户 为 单位 
1S| 汇总 观察 窗口 内 的 多 笔 发 货 信息 ， 计 算 客户 的 V 及 Geni 值 ,并 


选择 具有 最 大 信息 增益 率 的 属性 ， 从 上 往 下 完成 决策 树 的 构建 ”根据 定义 二 ， 判 断 并 标识 客户 流失 状态 ， 最 后 将 处 理 后 的 客户 
过 程 。 言 息 返 回 HDFS 。 
1.2.2 基于 Hadoop 的 并 行 C4.5 决策 树 客户 流失 预测 模型 dj) 流失 客户 预测 。 该 部 分 由 两 个 MapReduce 构成 ， 第 一 个 


构建 决策 树 是 反复 过 代 的 过 程 ， 面 对 大 规模 铁路 货运 零散 。” MapReduce 过 程 中 ，Mapl 子 任务 输入 < 属性 名 , 〈 属 性 值 、 所 
货 客户 信息 ， 如 果 使 用 串 行 计算 方式 会 在 运算 时 间 和 空间 上 ” 属 类 别 、 主 键 ID ) > 结构 的 数据 ， 其 中 属性 名 主要 
浪费 大 量 资源 。 本 文 基于 Hadoop 分 布 式 平台 , 使 用 MapReduce R、F、N、Z 和 流失 标识 状态 组 成 。Mapl 将 数据 发 送 给 
计算 框架 和 分 布 式 文件 系统 HDFS， 建 立 基 于 并 行 C4.5 决策 树 ”Reducel, 由 于 R、F、N、Z 为 连续 属性 ， 所 以 Reducel 要 对 属 
的 客户 流失 预测 模型 。 有 具体 操作 步骤 包括 数据 源 整合 加 载 、 数 ”性 值 进行 k-means 聚 类 离散 化 操作 , 本 文 设置 K=3, 并 对 所 属 
据 预 处 理 、 流 失 客户 识 别 、 流 失 客户 预测 几 部 分 , 如 图 1 所 示 。 类 别 进行 计数 。 第 二 个 过 程 中 ,将 <〈 属 性 名 ， 所 属 
a) 对 客户 数据 源 进行 整合 ， 包 括 客户 的 个 人 信息 、 发 货 信 类别 )，( 属 性 值 、 主 键 ID 、 类 别 数量 ) > 作为 Map2 的 数据 读 
息 等 ， 加 载 进入 HDFS， 从 而 由 多 数据 源 转换 为 单数 据 源 。 入 对 象 ，Reduce2 计算 各 属性 的 信息 业 和 信息 增益 ， 并 将 最 大 

b) 数 据 预 处 理 。 客 户 数据 信息 从 HDFS 中 被 提取 出 来 ， 并 ”信息 增益 的 属性 作为 最 佳 分 裂 属 性 , 并 逐一 确定 决策 树 各 节点 ， 
分 割 成 若干 Split，MapRecuce 使 用 JobTracker 将 Split 分 配给 最 终 完成 决策 树 的 构建 。 
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座 


Split0 Map Reduce 
数 二 计算 并 输入 map< 客 户 ID， 对 相同 客户 ID 进行 合并 ， 
据 De CC Do Lis Re Ns ZY 并 计算 客户 发 货 频 率 F 
一 > 预 上 一 一 | 上 一 | | > 
处 Split2 a 
理 对 C、D、L、R、N、7Z 进 行 数 对 各 项 数据 进行 Min-max 标 
SN 据 清洗 操作 准 化 操作 

号 流 Reduce 号 
人 Mes 对 相同 1D 的 ， 汇 总 ， 并 计算 立 及 Ge 办 
> ma 输入 < 客户 ID, CDL 模 型 参数 》 | | 复 
用 识 号 
别 判断 客户 流失 状态 到 
和 委 
货 J 尝 
及 记 
站 多 
Mapl Map2 据 
据 输入 《属性 名 ，( 属 性 值 、 所 属 类 别 、 主 > 输入 《属性 名 , 所 属 类 别 ) ，( 属 性 信 
源 键 ID) > 值 、 主 键 ID、 数 量 ) > 

六 y 

失 Reducel Reduce2 

客 

| 所 对 属性 值 进行 k-means 聚 类 离散 化 计算 属性 信息 焙 、 信 息 增益 ”| 
测 
对 属性 类 别 进行 计数 确定 最 佳 分 裂 属性 
构建 决策 树 


图 1 基于 Hadoop 的 并 行 C4.5 决策 树 客户 流失 预测 模型 操作 步 又 
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1.2.3 流失 预测 模型 评估 标准 
混沌 矩阵 反映 了 模型 的 预测 效果 ， 是 构建 模型 评估 指标 的 
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2.3 ”仿真 结果 及 分 析 
为 了 验证 C4.5 决策 树 对 铁路 零散 白 货 客户 流失 预测 模型 


基础 54。 客户 流失 模型 预测 结果 的 混淆 矩阵 如 表 1 所 示 ， 其 显 
示 了 在 真实 和 预测 两 个 维度 上 客户 流失 模型 预测 结果 分 类 。 


长 1 客户 流失 模型 预测 结果 混淆 矩阵 


上 


预测 状态 
样本 客户 真实 状态 
预测 流失 ”预测 非 流失 
真实 流失 W X 
真实 非 流失 Y U 


具有 较 高 的 运算 效率 和 预测 效果 ， 以 及 基于 Hadoop 平台 的 并 
行 算 法 的 高 效 性 ， 设 计 了 三 个 仿真 实验 来 进行 验证 。 

实验 1 在 单 节点 的 运行 环境 下 , 对 比 C4.5 算法 、Logistic 
算法 和 BP 算法 的 执行 效率 。 在 仿真 数据 中 抽取 不 同 数量 的 样 
本 数据 ， 如 表 2 所 示 。 运 用 三 种 算法 对 样本 数据 进行 计算 ， 表 
3 显示 了 三 种 算法 在 各 样本 数据 下 的 运行 时 间 , 从 中 可 以 看 出 ， 
三 种 算法 在 运行 时 间 上 相近 , 但 C4.5 较 其 他 两 种 算法 在 运行 速 
度 上 略 有 提升 ,说 明 C4.5 具有 较 好 的 运算 效率 。 表 4 显示 了 运 


本 文 在 此 基础 上 , 引入 模型 预测 准确 率 、 命 中 率 、 履 盖 率 、 
提升 系数 作为 评价 标准 ， 其 定义 如 式 (9) ~ 〈12) 所 示 。 模 型 
预测 准确 率 为 模型 整体 预测 能 力 ; 命中 率 表示 正确 识别 流失 客 
户 数 占 预 测 为 流失 客户 总 数 的 比例 ， 覆 盖 率 表示 正确 识别 流失 


客户 数 占 实际 流失 客户 总 数 的 比例 ; 提升 系数 表示 与 不 利用 模 
型 相 比 ， 模 型 预测 能 力 的 提升 程度 。 
预测 准确 率 = "+ (9) 
W+X+Y+U 
命中 谈 = W 
命中 率 WiY (10) 
覆盖 率 = 一 (11) 
W+X 
Me 命中 率 
提升 系数 = 宇 趟 对 泌 中 的 客户 流 天 率 0 
2 ”仿真 求解 及 分 析 
2.1 仿真 数据 
本 文 随机 抽取 2016 年 全 国 铁路 零散 白 货 货运 数据 信息 、 
投诉 建议 系统 信息 、 货 运 客户 数据 信息 作为 仿真 数据 ， 每 条 货 
运 数 据 为 客户 单 笔 发 货 信 息 ， 共 计 18 745 208 条 ， 其 中 包含 了 


运 
客户 运 到 期 限 完 成 情况 、 货 损 货 差 情况 、 客 户 投诉 建议 信息 、 
客户 单 笔 周 转 量 、 客 户 发 货 下 单 时 间 、 客 户 基 础 信息 等 信息 数 


据 。 
2.2 ”模型 实现 
仿真 平台 使 用 局 域 网 ， 配 置 5 台 PC 机 作为 服务 器 节点 ， 


每 台 PC 机 装 有 虚拟 机 ， 并 搭载 Linux 操作 系统 ， 同 时 配 有 4 
GB 内 存 和 500 GB 硬盘 存储 。 每 台 PC 机 安装 了 基于 Linux 的 
Java 开发 包 JDK， 并 安装 了 Hadoop 版 本 为 2.7.3。 仿 真 平台 采 
] Hadoop YARN 模式 , 使 用 1 台 PC 为 master， 另 外 4 台 了 PC 
为 slave 的 配置 

模型 运行 步 又 b)c) 后 ， 将 货运 数据 由 单 笔 发 货 记录 汇总 为 
内 的 以 客户 为 单位 的 客户 发 货 信 息 ， 从 而 得 到 零散 
户 27361 人 ， 其 中 包括 流失 客户 8 047 人 。C4.5 决策 树 随 
几 抽 取 70% 的 样本 信息 作为 训练 集 ， 另 外 30% 的 样本 作为 测试 


。 


a 


Hi 


址 党 


浪 车 


用 三 种 算法 运算 ， 结 合式 (9) (11) 得 到 的 客户 流失 预测 模型 
的 准确 性 和 履 盖 性 , 结果 显示 C4.5 算法 对 不 同样 本 的 预测 在 准 


确 性 和 用 盖 性 方面 都 较 其 他 两 种 算法 有 优势 , 说 明 C4.5 算法 在 
路 零散 白 货 客户 流失 预测 模型 上 具有 较 好 的 预测 效果 。 
表 2 样本 数据 表 
样本 数据 样本 客户 数量 /个 非 流 失 客 户 数量 /个 流失 客户 数量 /个 
D1 800 103 697 
D2 2 000 612 1 388 
D3 5 000 1 026 3 974 
D4 10 000 3 538 6 462 
表 3 三 种 算法 运行 时 间 对 比 结果 
C4.5 (s) Logistic (s) BP (s) 
D1 0.66 0.67 0.73 
D2 3.26 3.31 3.50 
D3 9.86 9.40 10.11 
D4 20.37 20.51 21.01 
表 4 三 种 算法 运行 时 间 对 比 结果 /% 
C4.5 Logistic BP 
准确 率 ”覆盖 率 ”准确 率 ”覆盖 率 ”准确 率 ”覆盖 率 
D1 80.63 73273 79.50 73;79 74.88 60.19 
D2 78.30 80.07 77.33 78.76 68.95 65.52 
D3 79.80 80.51 79.44 79.82 66.12 60.92 
D4 78.87 81.26 77.26 77.47 65.75 56.70 


实验 2 在 Hadoop 平台 下 , 对 比 不 同 数量 服务 节点 的 运行 
情况 。 表 5 中 显示 了 在 不 同 数量 的 服务 节点 上 运行 不 同 数量 的 
仿真 样本 所 需要 的 运行 时 间 ， 从 表 中 可 以 看 到 ， 在 样本 数量 较 
少 的 情况 下 ， 单 机 模式 与 并 行 模式 之 间 的 差距 很 小 ， 
样本 数量 的 增加 ， 基 于 Hadoop 的 并 行 运算 效率 得 到 了 大 幅 提 
升 ， 并 且 服 务 节点 的 增加 也 会 随 着 样本 数量 的 增加 大 幅 降 低 运 
算 时 间 。 图 2 表示 不 同 节 点 下 ， 对 不 同样 本 进行 运算 的 加 速 比 


砚 


其 中 ， 加 速 比 5= 5% ，Q 表示 在 单机 上 运行 时 间 ， 


5 表示 多 节点 


行 运行 时 间 , 其 是 衡量 并 行 算法 的 重要 参数 09， 
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从 中 可 以 看 出 在 数据 量 较 少 的 情况 下 ， 加 速 比 变化 并 不 明显 ， 


然 


Hadoop 的 并 行 算法 在 处 理 大 数据 方面 


法 
如 
在 


而 随 着 样本 数据 的 增加 ， 加 速 比 攀升 较 大 ， 同 样 说 明基 于 
有 较 大 的 优势 。 
表 5 不 同 服务 节点 运行 不 同样 本 数量 的 仿真 性 能 

不 同 服务 节点 数 运行 时 间 /s 


数据 量 /条 
1 个 之 个 3 个 本 个 
10 000 21.37 18.32 17.16 16.44 
100 000 128.26 25.38 22.96 19.81 
1000000 987.84 135.76 94.65 56.43 
10000 000 ”内 存 不 足 501.62 297.59 132.97 


一 4 一 10000 宗 弘 据 一 量 一 100000 款 红 撕 


一 和 一 1000000 条 数据 
20 


1 2 3 4 
服务 节点 数量 /个 


图 2 不 同 服务 节点 加 速 比 曲线 图 


实验 3 在 不 同 数量 节点 下 , 运用 式 (9) ~ 〈12) 的 评估 方 


明 
决 
说 


是 


构 
影 


的 


地 党 


失 
发 
小 


， 对 并 行 C4.5 决策 树 客户 流失 预测 模型 进行 评估 发 现 , 结果 
表 6 所 示 ， 对 于 在 不 同 数量 的 服务 节点 进行 并 行 实验 ， 模 型 
准确 率 、 命 中 率 、 履 盖 率 、 提 升 系数 等 方面 都 表现 良好 ， 说 
该 模型 具有 较 强 的 预测 能 力 ， 并 且 基 于 Hadoop 的 并 行 C4.5 
策 树 客户 预测 模型 在 不 同 数 量 服务 节点 的 情况 下 ,差距 不 大 ， 
明 设 定 不 同 节点 对 于 模型 的 准确 性 和 预测 能 力 影响 很 小 ， 但 
在 运行 速度 方面 却 有 较 大 提升 。 
表 6 并 行 C4.5 决策 树 客户 流失 预测 模型 评估 结果 
节点 数 /个 ”准确 率 /% 命中 率 /% ”覆盖 率 /% ”提升 系数 
1 83.17 69.86 75.20 2.3753 
2 84.65 71.32 79.98 2.4250 
3 83.13 69.12 77.07 2.3502 
4 83.29 70.33 74.70 2.3913 
运用 并 行 C4.5 决策 树 对 仿真 数据 进行 客户 流失 预测 , 最 终 
建 的 决策 树 显示 ， 客 户 的 平均 发 货 频率 对 零散 白 货 客户 流失 
响 最 大 ， 为 根 节点 ， 对 于 标准 化 后 的 平均 发 货 频率 小 于 0.21 
客户 为 流失 客户 ， 大 于 0.73 的 客户 为 非 流失 客户 ， 其 他 客户 


入 决策 树 第 二 层 分 支 节点 。 二 层 分 支 节 点 为 客户 的 平均 周转 
， 对 于 大 于 0.65 的 客户 为 非 流失 节点 ,小 于 0.13 的 客户 为 流 
客户 ， 其 他 客户 的 判断 进入 第 三 层 分 支 节点 ， 即 客户 的 近期 
货 表现 。 对 于 近期 发 货 表 现 数据 大 于 0.82 的 客户 为 流失 客户 ， 
于 0.09 的 客户 为 非 流 失 客 户 , 其 他 客户 进入 第 四 层 分 支 节点 ， 
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即 客 户 的 注册 时 长 。 对 于 客户 大 于 0.75 的 客户 为 非 流失 客户 ， 


其 他 的 为 流失 客户 。 


预 涡 


提 报 频率 、 平 均 发 货 周 转 量 、 近 
频繁 的 客户 其 稳定 性 越 强 ， 而 注册 时 间 越 久 的 客 


通过 分 析 结 果 可 以 看 出 ， 对 客户 进行 流失 
| 的 因素 中 ， 从 影响 程度 上 划分 ， 从 重 到 轻 依次 为 客户 平均 
近期 发 货 表 现 、 注 册 时 长 ， 发 货 
， 并 不 能 代 


过 


[I 


表 其 流失 的 可 能 性 越 小 。 
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问题 进行 了 研究 , 通过 建立 客户 流失 识别 CDL 模型 ， 
流失 因子 进行 计算 ， 


本 文 根 据 铁 路 零散 白 货 客户 特征 ， 针 对 零散 


货 客户 流失 
对 客户 
定义 了 零散 白 货 客户 的 流失 识别 方法 ，2 


后 运 | 
策 树 的 客户 流失 预测 模型 ， 
式 文件 系统 HDFS 对 模型 进行 了 仿真 求解 ， 
法 对 铁路 零散 
BP 算法 ] 
计算 方法 使 得 算法 运算 效率 得 到 了 大 幅 提升 ， 
测 模型 的 准确 性 和 预测 能 力 没 有 受到 影响 ， 对 于 大 数据 量 


大 数据 技术 ， 建 立 了 基于 Hadoop 分 布 式 平台 和 C4.5 决 
使 用 MapReduce 计算 框架 和 分 布 
结果 显示 C4.5 算 
货 客户 流失 预测 模型 的 计算 较 Logistic 算法 和 
【有 较 高 的 运算 效率 和 精确 度 ， 并 且 基 于 Hadoop 


行 
并 且 客 户 流失 预 
的 测 


试 村 


# 本 具有 较 大 的 实用 价值 。 该 方法 可 以 有 效 指导 铁路 货运 部 


门 对 零散 白 货 客户 流失 进行 预测 ， 从 而 有 针对 性 的 制定 客户 挽 
留 策 略 ， 实 现 


路 货运 增 运 增收 的 目的 。 
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